Введение в программирование на Triton: за пределами элементарных операций: переход к тайловым матричным операциям

В предыдущих уроках мы сосредоточились на элементарных операциях (например, простой функции ReLU для матрицы). Эти операции являются ограниченными памятью потому что видеопроцессор тратит больше времени на перемещение данных из памяти HBM в регистры, чем на выполнение вычислений.

1. Почему GEMM является центральным

Общее умножение матриц (GEMM) имеет вычислительную сложность $O(N^3)$, при этом требуя лишь $O(N^2)$ доступа к памяти. Это позволяет скрывать задержки памяти за огромной производительностью арифметических операций, делая его «сердцем» моделей больших языковых моделей (LLM).

2. Представление памяти в двумерном виде

Физическая ОЗУ — одномерная. Чтобы представить двумерный тензор, мы используем шаги (strides). Распространённая ошибка в производственной среде — предположение, что тензор континуален. Если вы перепутаете шаги строк и столбцов в вашем коде указателей, вы получите доступ к «призрачным» данным или вызовете нарушения памяти.

3. Обобщение с использованием тайлов

Triton обобщает логику элементарных операций, переходя от одиночных указателей к блокам указателей. Используя двумерные тайлы (например, $16 \times 16$), мы используем восстановление данных в высокоскоростной памяти SRAM, сохраняя данные «горячими» для объединённых операций, таких как добавление смещения (bias) или активации, перед записью обратно в глобальную память.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Why is an elementwise ReLU on a large matrix considered 'memory-bound'?

The ReLU function requires complex transcendental math.

The ratio of arithmetic operations to memory loads is very low (1:1).

Matrices are naturally stored in CPU memory only.

Triton cannot process non-linear activations.

QUESTION 2

What is the result of 'The Stride Trap' in production kernels?

The kernel runs significantly faster but with less precision.

Memory access violations or corrupted output due to incorrect address calculation on non-contiguous tensors.

The GPU automatically corrects the indexing using L2 cache.

The tensor is forced into a 1D shape by the compiler.

QUESTION 3

How does Triton represent a 2D tile of pointers?

By using a nested Python list of integers.

By broadcasting a 1D column vector and a 1D row vector of offsets together.

By launching multiple 1D kernels sequentially.

By allocating a special 2D register file.

QUESTION 4

Which operation benefits most from the O(N³) complexity shift to hide memory latency?

Vector Addition

Matrix Multiplication (GEMM)

Sigmoid Activation

Global Average Pooling

QUESTION 5

List three kernels in your current workflow that launch multiple PyTorch ops and might benefit from fusion.

Linear -> Bias -> ReLU; LayerNorm -> Dropout; Softmax -> Masking.

Print -> Log -> Sleep.

DataLoader -> Augmentation -> Storage.

These ops cannot be fused in Triton.